سال تحصیلی ۱۴۰۱-۱۴۰۲ فصل پائیز
مدرس: محسن هوشمند
| تعداد اعضاء ارائهء موضوع | نام مقله | نام اعضا |
|---|---|---|
| تک نفری | 2013 Playing Atari with Deep Reinforcement Learning (DQN) | جواد اصغری |
| دو نفری | 2016 Mastering the game of Go with deep neural networks and tree search (Alpha Go) | حسین رضائی |
| 2017 Mastering the game of Go without human knowledge (AlphaGo Zero) | ایضا | |
| 2018 A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play (Alpha Zero) | ایضا | |
| تک نفری | 2010 Double Q-learning | |
| 2016 Deep Reinforcement Learning with Double Q-Learning | ||
| 2018 Addressing Function Approximation Error in Actor-Critic Methods | ||
| تک نفری | 2018 Reinforcement learning for solving the vehicle routing problem | امیر خلیلی |
| تک نفری | 2019 Human-level performance in 3D multiplayer games with population-based reinforcement learning | |
| تک نفری | 2019 Learning to Optimize Join Queries With Deep Reinforcement Learning |
| عنوان مبحث | تاریخ | تمرین | منبع مطالعه |
|---|---|---|---|
| معرفی و مقدمات | نه مهر | ||
| کاوش در مقابل بهرهبرداری | شانزده مهر | ساتن و بارتو - فصل دوم | |
| هژده مهر | ساتن و بارتو - فصل دوم | ||
| بیست و سه مهر | ساتن و بارتو - فصل دوم | ||
| بیست و پنج مهر | ساتن و بارتو - فصل دوم | ||
| سی مهر | تمرین صفر | ساتن و بارتو - فصل دوم | |
| فرایند تصمیم مارکوف | دو آبان | ساتن و بارتو -فصل سوم | |
| هفت آبان | ساتن و بارتو -فصل سوم | ||
| نه آبان | ساتن و بارتو -فصل سوم | ||
| چهارده آبان | ساتن و بارتو -فصل سوم | ||
| برنامهریزی پویا | شانزده آبان | ساتن و بارتو -فصل چهارم | |
| بیست و یک آبان | ساتن و بارتو -فصل چهارم | ||
| بیست و سه آبان | ساتن و بارتو -فصل چهارم | ||
| روش مونت کارلو | بیست و هشت آبان | ساتن و بارتو -فصل پنجم | |
| سی آبان | ساتن و بارتو -فصل پنجم | ||
| پنج آبان | ساتن و بارتو -فصل پنجم | ||
| تفاضل زمانی | هفت آبان | تمرین یک | ساتن و بارتو -فصل ششم |